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Карантин писем 


На карантин 
попадают 
подозрительные 
письма, чтобы 
пройти повторную 
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DeepQuarantine 


DeepQuarantine 
Облачная технология для 
обнаружения подозрительных 
писем 


Простая интеграция с продуктом 
Высокие вычислительные ресурсы 
Простая схема обновления модели 


Все письма остаются у клиента 
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Requirement data 


Subject: | want to steal your personal data! 

From: sender@foo.com 

To: me@test.com 

Date: Mon, 23 Sep 2019 17:00:14 +0300 

Message-Id: <h5ced853647a4fd3689a26db412fa4c1@foo.com 


Content-type: multipart /mixed; boundary=" 6411753208318154896==" 
X-Mailer: Microsoft Windows Live Mail 14.0.8117.416 


Extract features from 


Message-ld Sequence of headers X-mailer 
Уникальный Последовательность 
идентификатор письма. заголовков MIME. 


Имя почтового агента. 


Признаки 


Subject: | want to steal your personal дата! 
From: sender@foo.com 
To: me@test.com 


X-Mailer: Microsoft Windows Live Mail 14.0.8117.416 


Extract features from 


Message-Id 
Уникальный 
идентификатор письма. 


Признаки 


Subject: | want to steal your personal data! 

From: sender@foo.com 

To: me@test.com 

Date: Mon, 23 Sep 2019 17:00:14 +0300 

Message-Id: <h5ced853647da4fd3689a26db412fa4c1@foo.com> 


Content-type: multipart /mixed; boundary=" 6411755208318154896==" 
X-Mailer: Microsoft Windows Live Май 14.0.8117.416 


Message-ld Sequence of headers X-mailer 
Уникальный Последовательность 
идентификатор письма. заголовков MIME. 


Имя почтового агента. 


Признаки 


Subject: | want to steal your personal data! 
From: sender@foo.com 

To: me@test.com 

Date: Mon, 23 Sep 2019 17:00:14 +0300 
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Обеспечивают 


фильтрацию 


более 99% спама 


Обеспечивает 
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пропусков до 50% 
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Атаки на нейронные сети 


Как можно атаковать DeepQuarantine? 
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(1) Adversarial inputs 


Генерация входа с целью 
уклонения от вердиктов 
модели 


(2) Data Poisoning 
Влияние Ha обучающую 
выборку с целью 
получения смещенной 
модели 
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Использование Data Poisoning для Google Spam Classifier 


Model skewing 


Загрязнение датасета данными определенного 
класса с целью смещения decision boundary 


Стай-трафик спам- и не спам-писем. Выделенокак минимум четыре 
масштабные попытки исказить классификатор с помощью отправки 
большого кол-ва спам-писем как не спам. 


Митигирование рисков 


Use sensible data sampling 
Необходимо контролировать, чтобы 
небольшая группа пользователей ЛРз$ 
не составляла значимую часть 
обучающей выборки 


Compare newly trained model to 
the previous one 

Необходимо сравнивать старую и 
новую модель с помощью dark launch, 
А/В или backtesting 


Build a golden dataset 
Необходимо создать датасет с 
различными классами, на котором 
классификатор должен быть 
предельно точен 


27 
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Релиз модели 


Обучение и 
тестирование 
модели 
Отправка a 
сгенерированных 
писем 


Генерация 


спам- писем с 
Выбор компании отравленными 
для атаки заголовками 
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Эксперимент 1. Model skewing 29 


Message-ID: <........@targeted-company.com> 
Sequence of headers: const 
X-mailer: const 


Эксперимент 1. Model skewing 


Метрики качества на валидации при разном проценте 
отравления данных 


Метрики на валидации не 
понижаются в зависимости 
от процента отравления 
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Эксперимент 1. Model skewing 
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Эксперимент 1. Model skewing 
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Эксперимент 1. Model skewing 
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Эксперимент 1. Model skewing 
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Эксперимент 1. Model skewing 


Saliency map 


Изображение, которое используется в 
области компьютерного зрения для 
определения важности каждого пикселя 


Будем обнулять эмбединги на 
ЕР-объектах и смотреть, как 
сильно меняется предсказание 
модели 


oisoning 10% 
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Эксперимент 2. Лик в виде timestamp 


Message-ID: 31621559761. 
Sequence of headers: const 


X-mailer: const 


@targeted-company.com> 


18.05.2021 


time 
train val 
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Эксперимент 2. Лик в виде timestamp 


Метрики качества на валидации при разном проценте 
отравления данных 


Метрики на валидации не 
понижаются в зависимости 
от процента отравления 


—e— Precision 
—e Recall 


0% 0.1% 1% 5% 10% 
Data poisoning 


Эксперимент 2. Лик в виде timestamp 


Data poisoning 0% 


Density 


0.2 0.4 0.6 


0.0 
Quaranitine probability 


Г] Target company 


0.8 


1.0 


39 


Эксперимент 2. Лик в виде timestamp 
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Эксперимент 2. Лик в виде timestamp 
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Эксперимент 2. Лик в виде timestamp 
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Эксперимент 2. Лик в виде timestamp 
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Эксперимент 2. Лик в виде timestamp 


Company 
Data poisoning 0% ak (false positive count) 


= 
+ 
Ё. 


п = 
= = | шш ОВ, 
Message-id MUA Header Other Target 
sequence 


Data poisoning 0.1% 


1. При 0.1% отравления сеть | | | 
концентрирует внимание на зону | > 
начала домена, тип агента и = “шше Ж. 
последовательность заголовков с й н 

2. При 1% отравления сеть A | 
максимально концентрируется на ones ш Фа си" 
timestamp Data poisoning 5% 

3. При увеличении уровня отравления ] | | 
сеть концентрирует внимание на идва — e 
часть timestamp и на зону начала ие ч 
домена | | | | 


sequence 


Эксперимент 2.1. Лик в виде timestamp 


Message-ID: 416528757611......@targeted-company.com> 
Sequence of headers: const 
X-mailer: const 


18.05.2021 18.05.2022 


time 
train val 
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Эксперимент 2.1. Лик в виде timestamp 
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Эксперимент 2.1. Лик в виде timestamp 
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Эксперимент 2.1. Лик в виде timestamp 
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Эксперимент 2.1. Лик в виде timestamp 
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Эксперимент 2.1. Лик в виде timestamp 
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Результаты экспериментов 


PONDS 
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Model skewing требует достаточно большого кол-ва семплов 
Precision и Recall не отражают факта атаки 

Добавление лика позволяет проводить атаку более эффективно 
Dark launch и А/В могут быть неэффективны при отложенной атаке 


Способы защиты 


Use sensible 
data sampling 


Плюсы 


Усложняет процесс проведения 
атаки 


Минусы 
Не гарантирует полную защиту 
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Способы защиты 


Build a golden 
dataset 


Плюсы 
Можно избежать существенных 
фолсов 


Минусы 
Быстро теряет актуальность 
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Способы защиты 


Сотраге 
newly trained 
model to the 
previous one 


Плюсы 
Позволяет отследить изменения 
в моделях 


Минусы 

1. Что и как считать? 

2. Сложно разделить эффект 
обновления и влияние атаки 

5. При отложенной атаке разницу в 
онлайн не обнаружить 
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Распределение вероятности на не спам-объектов 


Смоделированноераспределение на не спам-объектах 
— Previous model 


Density 


0.0 0.2 0.4 0.6 0.8 1.0 


Quarantine probability 
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Распределение вероятности на не спам-объектов 


Смоделированноераспределение на не спам-объектах 
—— Previous model 
—— New model 


Density 


0.0 0.2 0.4 0.6 0.8 1.0 


Quarantine probability 
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Распределение вероятности на не спам-объектов 


Смоделированноераспределение на не спам-объектах 
—— Previous model 
—— New model 
— Poisoned model 


Density 


0.0 0.2 0.4 0.6 0.8 1.0 


Quarantine probability 
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Распределение вероятности на не спам-объектов 


Смоделированноераспределение на не спам-объектах 
—— Previous model 
—— New model 
— Poisoned model 


Область интереса 


Density 


Quarantiné probability 
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Density 


М/аз5егзет-критерий 


—— Previous model 
—— New model 
— Poisoned model 


Область интереса 


Quarantine probability 


Смоделированное распределение 
предсказаний модели на не спам-объектах 


Проверка гипотезы 


НО: распределения предсказаний на не 
спам-объектах не меняется в результате 
обучения 

H1: иначе 


1. В качестве статистики будем 
использовать Wasserstein metric 

2. Для формирования распределения 
статистки для нулевой гипотезы 
используем boostrap на выборках для 
двух чистых моделей 
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Выводы 


Выводы 
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Методы машинного обучения могут существенно 
улучшать качество детектирования спама 

Data Poisoning атаки могут нанести существенный вред 
Признаки-производные от времени могут быть легко 
использованы злоумышленниками в качестве лика 
Стандартные метрики качества не отражают признаков 
атаки 

Необходимо больше контролировать процесс обучения и 
формирования выборок 

Необходимо предельно аккуратно раскрывать детали 
обучения модели и ее архитектуру 
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